查看原文
其他

circRNAs 定量之 CIRIquant 软件使用介绍

JunJunLab 老俊俊的生信笔记 2022-08-15


生活很近,也很远


之前我们介绍了 CIRIquant 软件的文章内容,今天来介绍软件的使用方法。目前该软件只支持 python2 的环境,可以使用 conda 新建一个 python2 的分析环境。

1、安装

依赖的软件:

  • bwa
  • hisat2
  • stringtie
  • samtools >= 1.9

python 包:

  • PyYAML
  • argparse
  • pysam
  • numpy
  • scipy
  • scikit-learn

源码安装:

# create and activate virtual env
pip install virtualenv
virtualenv -p /path/to/your/python2/executable venv
source ./venv/bin/activate

#
 Install CIRIquant and its requirement automatically
tar zxvf CIRIquant.tar.gz
cd CIRIquant
python setup.py install

#
 Manual installation of required pacakges is also supported
pip install -r requirements.txt

pip 安装:

pip install CIRIquant

2、用法一:circRNA quantifcation

基本参数:

Usage:
  CIRIquant [options] --config <config> -1 <m1> -2 <m2>

  <config>            Config file
  <m1>                Input mate1 reads (for paired-end data)
  <m2>                Input mate2 reads (for paired-end data)

Options (defaults in parentheses):

  -v                  Run in verbose mode
  -o, --out           Output directory (default: current directory)
  -e, --log           Specific log file (default: sample_prefix.log)
  -p, --prefix        Output sample prefix (default: input sample name)
  -t, --threads       Number of CPU threads to use (defualt: 4)
  -a, --anchor        Minimum anchor length for junction alignment (default: 5)
  -l, --library-type  Library type, 0: unstranded, 1: read1 match the sense strand, 2: read1 match the antisense strand (default: 0)

  --bed               User provided Back-Spliced Junction Site in BED format
  --circ              circRNA prediction results from other tools
  --tool              Tool name, required when --circ is specified ([CIRI2/CIRCexplorer2/DCC/KNIFE/MapSplice/UROBORUS/circRNA_finder/find_circ])

  --RNaseR            CIRIquant output file of RNase R data (required for RNase R correction)
  --bam               Specific hisat2 alignment bam file against reference genome
  --no-gene           Skip StringTie estimation of gene abundance

注意:

  • 目前,–circ 和 –tool 选项支持来自 CIRI2 / CIRCexplorer2 / DCC / KNIFE / MapSplice / UROBORUS / circRNA_finder / find_circ 的结果。

  • 对于 DCC 和 circRNA_finder 等工具,请手动删除具有相同连接位置但具有相反链的重复 circRNA。

  • 标准化需要基因表达值,如果之后需要运行 DE 分析,请不要使用 --no-gene。

config 示例:

YAML 格式的配置文件:

// Example of config file
name: hg19
tools:
  # 软件路径
  bwa: /home/zhangjy/bin/bwa
  hisat2: /home/zhangjy/bin/hisat2
  stringtie: /home/zhangjy/bin/stringtie
  samtools: /home/zhangjy/bin/samtools

reference:
  # 文件路径
  fasta: /home/zhangjy/Data/database/hg19.fa
  gtf: /home/zhangjy/Data/database/gencode.v19.annotation.gtf
  # 索引路径
  bwa_index: /home/zhangjy/Data/database/hg19/_BWAtmp/hg19
  hisat_index: /home/zhangjy/Data/database/hg19/_HISATtmp/hg19

对于用户提供的 circRNA 的定量,需要一张床格式的连接位点列表,第 4 列必须是 “chrom:start|end” 格式。例如:

chr1    10000   10099   chr1:10000|10099    .   +
chr1    31000   31200   chr1:31000|31200    .   -

使用示例:

1、推荐:使用 CIRI2 预测 circRNA:

CIRIquant -t 4 \
          -1 ./test_1.fq.gz \
          -2 ./test_2.fq.gz \
          --config ./chr1.yml \
          -o ./test \
          -p test

2、使用提供的 BED 格式输入定量 circRNA:

CIRIquant -t 4 \
          -1 ./test_1.fq.gz \
          -2 ./test_2.fq.gz \
          --config ./chr1.yml \
          -o ./test \
          -p test \
          --bed your_circRNAs.bed

3、使用其他工具的结果定量 circRNA:

CIRIquant -t 4 \
          -1 ./test_1.fq.gz \
          -2 ./test_2.fq.gz \
          --config ./chr1.yml \
          -o ./test \
          -p test \
          --circ find_circ_results.txt \
          --tool find_circ

输出结果格式:

CIRIquant 的主要输出是一个 GTF 文件,其中包含 circRNA 的 BSJFSJ reads 的详细信息以及属性列中 circRNA 反向剪接区域的注释。

attributes 列的解释:

3、用法二:RNase R effect correction

当你同时有 RNase R 处理和未经处理的样本时,CIRIquant 可以估计 RNase R 数据中检测到的 circRNAs 处理前的表达水平。

为了去除 RNase R 处理效应,需要两个步骤:

  • 1、用 RNase R 处理过的样品运行 CIRIquant。
  • 2、使用 Step1 中的输出 gtf 文件,使用未经处理的总 RNA 样本,加上特定的 ——RNaseR 参数运行 CIRIquant。

然后,CIRIquant 将输出 RNaseR 数据中检测到的 circRNAs 的估计表达水平,标题行将包含额外的 RNaseR 处理效率信息。

使用示例:

# Step1. Run CIRIquant with RNase R treated data
CIRIquant --config ./hg19.yml \
          -1 ./RNaseR_treated_1.fq.gz \
          -2 ./RNaseR_treated_2.fq.gz \
          --no-gene \
          -o ./RNaseR_treated \
          -p RNaseR_treated \
          -t 6

#
 Step2. Run CIRIquant with untreated total RNA
CIRIquant --config ./hg19.yml \
          -1 ./TotalRNA_1.fq.gz \
          -2 ./TotalRNA_2.fq.gz \
          -o ./TotalRNA \
          -p TotalRNA \
          -t 6 \
          --RNaseR ./RNaseR_treated/RNaseR_treated.gtf

4、用法三:Differential expression analysis

1、没有生物学重复:

对于没有生物学重复的样品,使用 CIRI_DE 进行差异表达和差异剪接分析:

Usage:
  CIRI_DE [options] -n <control> -c <case> -o <out>

  <control>         CIRIquant result of control sample
  <case>            CIRIquant result of treatment cases
  <out>             Output file

Options (defaults in parentheses):

  -p                p value threshold for DE and DS score calculation (default: 0.05)
  -t                numer of threads (default: 4)

Example usage:
  CIRI_DE -n control.gtf -c case.gtf -o CIRI_DE.tsv

输出结果格式:

2、有生物学重复:

对于生物学重复研究,建议使用 edgeR 的定制分析管道,我们提供 prep_CIRIquant 以生成 circRNA 表达水平/连接比和 CIRI_DE_replicate 矩阵以进行 DE 分析 :

step1:准备配置文件:

CONTROL1 ./c1/c1.gtf C 1
CONTROL2 ./c2/c2.gtf C 2
CONTROL3 ./c3/c3.gtf C 3
CASE1 ./t1/t1.gtf T 1
CASE2 ./t2/t2.gtf T 2
CASE3 ./t3/t3.gtf T 3

默认情况下,前三列是必需的。对于配对的样本,还可以添加一个配对名称列:

然后运行 prep_CIRIquant 总结所有样本中的 circRNA 表达谱:

Usage:
  prep_CIRIquant [options]

  -i                the file of sample list
  --lib             where to output library information
  --circ            where to output circRNA annotation information
  --bsj             where to output the circRNA expression matrix
  --ratio           where to output the circRNA junction ratio matrix

Example:
  prep_CIRIquant -i sample.lst \
                 --lib library_info.csv \
                 --circ circRNA_info.csv \
                 --bsj circRNA_bsj.csv \
                 --ratio circRNA_ratio.csv

然后可以将这些计数矩阵(CSV 文件)导入 R 中,供 DESeq2 和 edgeR 使用(分别使用 DESeqDataSetFromMatrix 和 DGEList 函数)。

step2:准备 StringTie 的输出文件:

StringTie 的输出应位于 output_dir/gene/prefix_out.gtf 下。需要使用 stringTie 中的 prepDE.py 来生成用于标准化的基因计数矩阵。

例如,可以提供一个文本文件 sample_gene.lst ,其中包含样本 ID 和 StringTie 输出的路径:

CONTROL1 ./c1/gene/c1_out.gtf
CONTROL2 ./c2/gene/c2_out.gtf
CONTROL3 ./c3/gene/c3_out.gtf
CASE1 ./t1/gene/t1_out.gtf
CASE2 ./t2/gene/t2_out.gtf
CASE3 ./t3/gene/t3_out.gtf

然后,运行 prepDE.py -i sample_gene.lst 并使用在当前工作目录下生成的 gene_count_matrix.csv 进行进一步分析。

step3:差异分析:

对于使用 CIRI_DE_replicate 的差异分析,您需要从 Bioconductor 安装 R 环境和 edgeR 包:

Usage:
  CIRI_DE_replicate [options]

  --lib             library information by CIRIquant
  --bsj             circRNA expression matrix
  --gene            gene expression matrix
  --out             output differential expression result

Example:
  CIRI_DE_replicate --lib  library_info.csv \
            --bsj  circRNA_bsj.csv \
            --gene gene_count_matrix.csv \
            --out  circRNA_de.tsv

请注意,输出结果是未过滤的,你可以对表达值应用更严格的过滤以获得更可信的结果。

5、药大深秋







欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群 哦。

群二维码:




老俊俊微信:




知识星球:



所以今天你学习了吗?

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!





 往期回顾 




ggplot 绘制环形堆叠条形图

circRNAs 定量之 CIRIquant 软件

怎么在 UCSC 官网下载基因组和注释文件?

ggplot 绘制三角形相关性图

clusterProfiler 的 shiny 版

我的 Ubuntu 启动项不见了?

Ribo-seq 质控软件:ribosomeProfilingQC

barplot 还不会添加误差线?你点进来就会了!

跟着 Hindawi 学画图:漂亮的火山图

跟着 Microbiome 学画图:堆积柱形图的多层注释

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存